Model Selection

Image-to-Text Conversion

# Image-to-Text Conversion

Qwen Qwen2.5 VL 7B Instruct GGUF

A quantized version of Qwen2.5-VL-7B-Instruct, using llama.cpp for quantization, supporting multimodal tasks such as image-to-text conversion.

Text-to-Image English

Gemma 3 12B It Qat GGUF

Gemma 3 12B IT is a large language model developed by Google, supporting multimodal input and long-context processing.

lmstudio-community

Gemma 3 Glitter 4B

Optimized model based on Gemma 3 4B, using the same data mixing scheme as Glitter 12b

Large Language Model

Google.gemma 3 27b Pt GGUF

Gemma 3 27B is a large-scale pre-trained language model developed by Google, with 27 billion parameters, suitable for various natural language processing tasks.

Large Language Model

Huihui Ai.granite Vision 3.2 2b Abliterated GGUF

Granite Vision 3.2 2B Abliterated is a vision-language model focused on image-to-text conversion tasks.

Llava Maid 7B DPO GGUF

LLaVA is a large language and vision assistant model capable of handling multimodal tasks involving images and text.

Donut Base Finetuned SOGC Archive Trademarks 1883 2001

A multilingual image-to-text model for identifying and parsing historical trademark documents, supporting German, Italian, and French.

Transformers Supports Multiple Languages

Git Base Textcaps

GIT is a Transformer-based generative image-to-text model capable of converting visual content into descriptive text.

Transformers Supports Multiple Languages

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase